AI 绘图技术体系
把 AI 绘图的技术体系划分为三个完全不同的维度:
维度一:模型/产品名称(“汽车品牌”)
- 代表: FLUX、Stable Diffusion (SD)、Midjourney、DALL-E 3。
- 解释: 这是最终打包推向市场的成品名字。它包含了一整套训练好的权重、文本编码器和生成器。
维度二:神经网络架构(“发动机引擎结构”)
- 代表: UNet、DiT (Diffusion Transformer)、CNN (卷积神经网络)、GAN (生成对抗网络)。
- 解释: 这是 AI 用来“画画”的底层代码骨架。它决定了 AI 是用什么样的方式去观察和处理图像像素的。
- UNet 的工作方式(SD 系列在用): 它是基于“卷积”的。就像拿着放大镜一点点扫过画布,先把高清大图压缩成一团极小的马赛克(提取出高级特征,这是 U 字的谷底),然后再慢慢放大还原成清晰的图像。这种方式擅长处理局部的纹理,但容易“缺乏大局观”(比如画错手指数、写错英文字母)。
- DiT 的工作方式(FLUX 在用): 它借鉴了 ChatGPT 的思路。不搞压缩放大,而是直接把图片切成一个个小方块(Patches)。然后利用“全局注意力机制”,让每一个方块都能同时看到其他所有方块。这就赋予了它极强的全局结构感和文本渲染能力。
维度三:数学生成范式(“物理定律与底层逻辑”)
- 代表: Diffusion(扩散模型)、Flow Matching(流匹配)、Autoregressive(自回归)。
- 解释: 这是指导引擎如何“从无到有”生成数据的最高数学原则。
- Diffusion: 对应弯曲的去噪轨迹。
- Flow Matching: 对应拉直的线性轨迹。
对号入座
按照这三个维度,我们可以清晰地画出两代霸主的技术族谱:
- 旧时代的王者(如 Stable Diffusion XL): 品牌是 SDXL ➡️ 发动机架构是 UNet ➡️ 数学原理是 Diffusion(扩散)。
- 新时代的王者(如 FLUX.1): 品牌是 FLUX ➡️ 发动机架构是 DiT ➡️ 数学原理是 Flow Matching(流匹配)。
当前流行图像模型多维度拆解表
| 维度一:模型/产品名称 (汽车品牌) | 维度二:神经网络架构 (发动机引擎) | 维度三:数学生成范式 (物理定律) | 核心优势与定位 (附加说明) |
|---|---|---|---|
| Flux.1 (Black Forest Labs) | MM-DiT (多模态 Transformer) | Flow Matching (流匹配) | 目前开源界的绝对画质霸主,彻底解决手部变形和复杂文本渲染问题。 |
| SD3 / 3.5 (Stability AI) | MM-DiT (多模态 Transformer) | Flow Matching (流匹配) | 采用双流结构,对复杂长提示词和空间位置关系的理解极强。 |
| SDXL (Stability AI) | UNet (U型卷积网络) | Diffusion (扩散模型) | 上一代开源霸主,生态极其庞大,拥有无数成熟的 LoRA 和 ControlNet。 |
| Kolors (可图) (快手) | 改进版 UNet | Diffusion (扩散模型) | 结合了强大的大语言模型作为文本编码器,中文语义理解极具优势。 |
| Qwen-Image / Edit (阿里) | DiT (扩散 Transformer) | Diffusion (扩散模型) | 阿里最新开源主力,原生支持极高精度的局部修复与图像拓展编辑。 |
| LongCat-Image (美团) | 紧凑型 DiT (文生图与编辑同源) | Diffusion (扩散模型) | 最新开源黑马,主打单图精细化编辑与汉字的高精度渲染。 |
| Hunyuan-DiT (腾讯) | DiT (扩散 Transformer) | Diffusion (扩散模型) | 国内首批全面采用 DiT 架构的开源模型,中英文双语原生支持,画风多样。 |
| --- | --- | --- | --- |
| Nano Banana 2 / Pro (Google) | 自研多模态 Transformer | Diffusion (扩散衍生) | (闭源) Gemini 3 家族的原生图像模型。主打极速响应、真实的物理世界知识推理(思考功能)和惊艳的多语言排版渲染。 |
| GPT-Image 2 (OpenAI) | 自研多模态 Transformer | Diffusion (扩散衍生) | (闭源) ChatGPT Images 2.0。主打“听话”,在多目标精准组合、复杂 UI 截图生成和指令遵循上表现极其稳定。 |